Web crawler

Un Web crawler (anche conosciuto come Web spider) � un programma che passa in rassegna il World Wide Web in un modo metodico e automatizzato. Un web crawler � un tipo di bot (programma o script che automatizza delle operazioni tipicamente eseguite da utenti umani). I web crawler non mantengono soltanto una copia di tutte le pagine visitate per poi successivamente analizzarle - per esempio da un motore di ricerca ma inoltre indicizzano queste pagine per rendere la ricerca pi� veloce e precisa.

In generale, il web crawler si avvia con una lista di URL da visitare. Mentre visita questi URL, identifica tutti gli hyperlink nella pagina e li aggiunge alla lista di URL da visitare. Il processo o � concluso manualmente, o dopo che un determinato numero di collegamenti sia percorso.

I web crawler tipicamente diluiscono le visite in periodi di tempo abbastanza larghi, perché accedono a molte pi� pagine di un utente (umano) normale e possono rallentare notevolmente la visita di un sito ai normali utenti se accedono ripetutamente alle stesse pagine.

Per i motivi simili, i web crawler sono obbligati ad obbedire al protocollo "robots.txt", file nel quale i proprietari di Web site possono indicare quali pagine non dovrebbero essere analizzate.